首页> 外文OA文献 >An Optimized Sparse Approximate Matrix Multiply for Matrices with Decay
【2h】

An Optimized Sparse Approximate Matrix Multiply for Matrices with Decay

机译:具有衰减的矩阵的最优稀疏近似矩阵乘法

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We present an optimized single-precision implementation of the SparseApproximate Matrix Multiply (\SpAMM{}) [M. Challacombe and N. Bock, arXiv {\bf1011.3534} (2010)], a fast algorithm for matrix-matrix multiplication formatrices with decay that achieves an $\mathcal{O} (n \log n)$ computationalcomplexity with respect to matrix dimension $n$. We find that the max norm ofthe error achieved with a \SpAMM{} tolerance below $2 \times 10^{-8}$ is lowerthan that of the single-precision {\tt SGEMM} for dense quantum chemicalmatrices, while outperforming {\tt SGEMM} with a cross-over already for smallmatrices ($n \sim 1000$). Relative to naive implementations of \SpAMM{} usingIntel's Math Kernel Library ({\tt MKL}) or AMD's Core Math Library ({\ttACML}), our optimized version is found to be significantly faster. Detailedperformance comparisons are made for quantum chemical matrices with differentlystructured sub-blocks. Finally, we discuss the potential of improved hardwareprefetch to yield 2--3x speedups.
机译:我们提出了稀疏近似矩阵乘法(\ SpAMM {})[M.]的优化单精度实现。 Challacombe和N. Bock,arXiv {\ bf1011.3534}(2010)],一种具有衰减的矩阵矩阵乘法格式的快速算法,相对于矩阵,它可以实现$ \ mathcal {O}(n \ log n)$的计算复杂度维度$ n $。我们发现,对于\ SpAMM {}容差低于$ 2 \ times 10 ^ {-8} $所实现的错误的最大范数低于单精度{\ tt SGEMM}的致密量子化学矩阵的误差的最大范数,而性能优于{\ tt SGEMM},并且已经可以用于小矩阵($ n \ sim 1000 $)。相对于使用英特尔数学核心库({\ tt MKL})或AMD核心数学库({\ ttACML})的\ SpAMM {}的幼稚实现,我们的优化版本明显更快。对具有不同结构子块的量子化学矩阵进行了详细的性能比较。最后,我们讨论了改进硬件预取以产生2--3倍加速的潜力。

著录项

  • 作者单位
  • 年度 2012
  • 总页数
  • 原文格式 PDF
  • 正文语种 {"code":"en","name":"English","id":9}
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号